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SYSTEME DE RECONNAISSANCE DE PAROLE DISTRIBUEE 



La presente invention est relative au domaine de la commande 
vocale d'applications, exercee sur des terminaux utilisateurs, gr§ce a la mise 
en oeuvre de moyens de reconnaissance de la parole. Les temiinaux 
utilisateurs consideres sent tous les dispositifs dotes d'un moyen de capture de 
5 la parole, communement un microphone, possedant des capacit6s de 
traitement de ce son et reli6s a un ou des serveurs par un canal de 
transmission. II s'agit par exemple d'appareils de commande. de 
t6l§commande utilises dans des applications domotiques, dans des 
automobiles (commande d'auto-radio ou d'autres fonctions du vehicule), dans 
10 des PC ou des postes telephoniques. Le champ des applications concem6es. 
est essentlellement celui oD I'utilisateur commande une action, demande unS- 
information ou veut interagir § distance en utilisant une commande vocale,:- 
L'utillsation de commandos vocales n'exclut pas I'existence dans le termin^J 
utilisateur d'autres moyens d'action (systeme multi-modal), et le retour. 
15 d'informations, d'^tats ou de reponses peut egalement se faire sous form^ 
combinee visuelle. sonore, olfactive et tout autre moyen humainement 
perceptif. 

De maniere gen6rale, les moyens pour la realisation de la 
reconnaissance de parole comprennent des moyens d'obtention d'un signal 

20 audio, des moyens d'analyse acoustique qui extraient des param^tres de 
mod^lisatlon et enfin des moyens de reconnaissance qui comparent ces 
param§tres de mod6lisation calcules a des modeles, et proposent la fomie 
memorisee dans les modules qui peut etre associee au signal de la fagon la 
plus probable. Optionnellement des moyens de detection d'activit6 vocale VAD 

25 (" Voice Activation Detection ") peuvent §tre utilises, lis assurent la detection 
des sequences con-espondant a de la parole et devant §tre reconnues. lis 
extraient du signal audio en entree, en-dehors des periodes d'inactivlte vocale, 
des segments de parole, qui seront ensuite traites par les moyens de calcul 
des parametres de mbdelisation. 
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Plus particulierement, I'invention porte sur les interactions entre 
les trois nnodes de reconnaissance de la parole dits embarque, centralise et 
distribue. 

Dans un mode de reconnaissance de parole embarquee, 
5 I'ensemble des moyens pour effectuer la reconnaissance de parole se trouvent 
au niveau du terminal utilisateur. Les limitations de ce mode de reconnaissance 
sont done liees notamment a la puissance des processeurs embarques, et a la 
memoire dlsponible pour stocker les modeles de reconnaissance de parole. En 
contrepartie, ce mode autorise un fonctionnement autonome, sans connexion d 

10 un serveur, et a ce titre est voue a un fort developpement lie a la reduction du 
coQt de la capacite de traitement. 

Dans un mode de reconnaissance de la parole centralisee, toute 
la procedure de reconnaissance de parole et les modeles de reconnaissance 
se trouvent et s'executent sur une machine, appelee generalement serveur 

15 vocal, accessible par le terminal utilisateur. Le terminal transmet simplement au 
serveur un signal de parole. Cette methode est utilisee notamment dans les 
applications offertes par les operateurs de telecommunication. Un terminal 
basique peut ainsi acceder a des sen/ices evolues, actives a la voix. De 
nombreux types de reconnaissance de parole (robuste, flexible, tres grand 

20 vocabulaire, vocabulaire dynamlque, parole continue, mono ou multi locuteurs, 
plusieurs langues. etc) peuvent etre implementes dans un serveur de 
reconnaissance de parole. En effet, les machines centralisees ont des 
capacites de stockage de modeles, des tallies de memoire de travail et des 
puissances de calcul importantes et croissantes. 

25 Dans un mode de reconnaissance de parole distribuee, les 

moyens d'analyse acoustique sont embarques dans le terminal utilisateur, les 
moyens de reconnaissance etant au niveau du serveur. Dans ce mode 
distribue, une fonction de debruitage associ6e aux moyens de calcul des 
parametres de modelisation peut etre avantageusement realisee a la source. 

30 Seuls les parametres de modelisation sont transmis, ce qui permet un gain 
substantiel en debit de transmission, particulierement interessant pour les 
applications multimodales. De plus, le signal a reconnaitre peut Stre mieux 
protege centre les erreurs de transmission. Optionnellement on peut aussl 
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embarquer la detection d'activite vocale (VAD) pour ne transmettre les 
parametres de modelisation que durant les sequences de parole, ce qui a pour 
avantage de reduire de maniere importante la duree de transmission active. La 
reconnaissance de parole distrlbuee permet en outre de v§hicuter sur le m§me 

5 canal de transmission des signaux de parole et de donnees, notamment texte, 
Images ou vld6os. Le reseau de transmission peut etre par exemple de type IP, 
GPRS, WLAN ou Ethernet. Ce mode permet egalement de b6n§ficler de 
procedures de protection et de correction centre les pertes de paquets 
constituant le signal transmis d destination du serveur. Cependant il necessite 

10 la disponibilite de canaux de transmission de donn6es, avec un protooole strict 
de transmission. 

L'inventlon propose un systeme de reconnaissance de parole 
comportant des temriinaux utilisateurs et des serveurs combinant les differentes 
fonctions offertes par les modes de reconnaissance de parole embarquee,>< 
15 centralis^e et distribute, pour offrir le maximum d'efficaclte, de contort et:'^ 
d'ergonomie aux utilisateurs de services multi modaux ou la commando vocale ? 

est utiiisee. - 
Le brevet US 6 487 534-B1 d6crit un systeme de reconnaissance ; 
de parole distribuee comportant un terminal utilisateur disposant des moyens^. 

20 de detection d'activite vocale, de moyens de calcul des parametres de 
modelisation et de moyens de reconnaissance. Ce systeme comprend en outre 
un serveur disposant egalement de moyens de reconnaissance, Le prIncIpe 
decrit est de realiser au molns une premiere phase de reconnaissance au 
niveau du terminal utilisateur. Dans une deuxieme phase optionnelle, les 

25 parametres de modelisation calcules au niveau du terminal sont envoyes a 
destination du serveur, afin notamment de determiner cette fois grace aux 
moyens de reconnaissance du serveur, une fonne memorisee dans les 
modeles de celui-cl et associ§e au signal envoys. 

Le but vise par le systeme dtcrit dans le document cit6 est de 

30 diminuer la charge au niveau du serveur. Cependant il s'ensuit que le tenmlnal 
doit realiser le calcul des parametres de modelisation en local avant de les 
transmettre eventuellement a destination du serveur. Or II y a des 
circonstances ou, pour des raisons de gestion de charge ou pour des raisons 
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applicatives. il est preferable de realiser ce calcul au niveau du serveur. 

II s'ensuit egalement que les canaux utilises pour la transmission 
des parametres de modelisation a reconnattre, dans un systeme selon le 
document cite cl-dessus. doivent etre imperativement des canaux aptes a 
5 transmettre ce type de donnees. Or lorsque de tels canaux au protocole tres 
strict ne sont pas forcement disponibles en permanence sur le reseau de 
transmission. C'est pourquoi il est fnteressant de pouvoir utlllser des canaux 
classiques de transmission de signaux audio, pour ne pas retarder ou bloquer 
le processus de reconnaissance entame au niveau du terminal. 

10 Un but de la presente invention est de proposer un systeme 

distribue qui soit moins affecte par les limitations citees ci-dessus. 

Ainsi suivant un premier aspect, Tinvention propose un systeme 
de reconnaissance de parole distribuee, comportant au moins un terminal 
utilisateur et au moins un serveur aptes a communiquer entre eux par 

15 Tintermediaire d'un reseau de telecommunications, dans lequel le terminal 
utilisateur comprend : 

- des moyens d'obtention d'un signal audio a reconnaitre ; 

- des premiers moyens de calcul de parametres de modelisation du 
signal audio; et 

20 - des premiers moyens de controle pour selectionner au moins un signal 

a emettre a destination du serveur parmi le signal audio a reconnaTtre 
et un signal indiquant les parametres de modelisation calcules, 

et dans lequel le serveur comprend : 

- des moyens de reception du signal selectionne en provenance du 
25 terminal utilisateur ; 

- des seconds moyens de calcul de parametres de modelisation d'un 
signal d'entree ; 

- des moyens de reconnaissance pour associer au moins une forme 
memorisee a des parametres d*entree ; et 

30 - des seconds moyens de controle pour commander les seconds 

moyens de calcul et les moyens de reconnaissance de fagon ^ 
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. lorsque le signal selectionn6 regu par les moyens de reception 
est de type audio, activer les seconds moyens de calcul de 
paramdtres en leur adressant le signal selectionne en tant que 
signal d'entr§e, et adresser les parametres calcules par les 
5 seconds moyens de calcul aux moyens de reconnaissance en 

tant que parametres d'entr6e, et 
. lorsque le signal sSlectionpe re9U par les moyens de reception 
indique des parametres de mod^lisation, adresser lesdtts 
parametres indiques aux moyens de reconnaissance en tant 
1 Q que parametres d'entree. 

Ainsi le systeme selon I'invention permet de transmettre depuis le 
terminal utllisateur ^ destination du serveur soit le signal audio (compress6 ou 
non). soit le signal d^livr^ par les moyens de calcul des parametres de 
modelisation du terminal. Le choix du signal transmis peut etre d6fini soit par le 
15 type d'applications en cours. soft par I'etat du reseau, soit suite a une 
coordination entre les moyens de contrSle respectlfs du temiinal et du serveur. " 

Un systeme selon Tinvention donne la capacft6 au terminal 
utllisateur de r§aliser, en fonction par exemple de parametres d'entr§e dont leg 
moyens de controle disposent a un instant donne, le calcul des parametres de 
20 modelisation au niveau du terminal ou au niveau du serveur. Ce calcul peut 
egalement etre realise en parallele au niveau du terminal et au niveau du 
serveur. 

Un systeme selon I'invention permet d'effectuer la 
reconnaissance vocale depuis des terminaux de differents types coexistent au 
25 sein d'un m§me r6seau, par exemple : 

- des tenninaux ne disposant d'aucun moyen de reconnaissance local 
(ou dont le moyen de reconnaissance local est inactif). auquel cas le signal 
audio est envoye pour reconnaissance d destination du serveur ; 

- des terminaux disposant de moyens de detection d'activite vocale sans 
30 moyens de calcul de parametres de modelisation, ni moyens de 

reconnaissance (ou dont les moyens de calcul de parametres et les moyens 
de reconnaissance sont Inactifs), et transmettant au serveur pour 
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reconnaissance un signal audio d'origine ou un signal audio representatif de 
segments de parole extraits du signal audio en-dehors des periodes 
d'inactivite vocals, 

- et des serveurs disposant par exemple uniquement de 
5 moyens de reconnaissance, sans moyens de calcul de parametres de 
modelisatlon. 

Avantageusement, les moyens d'obtentlon du signal audio du 
terminal utilisateur peuvent comprendre en outre des moyens de d§tectlon 
d'activite vocale pour extraire du signal audio d'origlne, en-dehors des periodes 

10 dMnactivite vocale, des segments de parole. Les moyens de controle du 
terminal selectionnent alors au moins un signal a 6mettre a destination du 
serveur, parmi un signal audio representatif des segments de parole et le 
signal indiquant les parametres de modelisatlon calcules. 

Avantageusement les moyens de controle du terminal sont 

15 adaptes pour selectionner au moins un signal a emettre a destination du 
serveur parmI au moins le signal audio d'origine, le signal audio indiquant les 
segments de parole extraits du signal audio d'origine et le signal Indiquant des 
parametres de modelisatlon calcules. Au niveau du serveur, les moyens de 
controle sont adapt6s pour commander les moyens de calcul et les moyens de 

20 reconnaissance de fagon a, lorsque le signal s§lectionne regu par les moyens 
de reception est representatif des segments de parole extraits par les moyens 
de detection d'activite vocale du terminal, activer les moyens de calcul de 
parametres du serveur en leur adressant le signal selectlonne en tant que 
signal d'entree, et adresser les parametres calcules par ces moyens de calcul 

25 aux moyens de reconnaissance en tant que parametres d'entree, 

Dans un mode de realisation prefere, le serveur comporte en 
outre des moyens de detection d'activite vocale pour extraire d'un signal regu 
de type audio, en-dehors des periodes d'inactivite vocale. des segments de 
parole. Dans ce cas, au niveau du serveur, les moyens de controle sont 

30 adaptes pour commander les moyens de calcul et les moyens de 
reconnaissance de fagon a 

• lorsque le signal selectlonn6 regu par les moyens de reception 
est de type audio : 
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si le signal regu de type audio est representatif de segments 
de parole apres detection d'activite vocale, activer les 
seconds moyens de calcul de parannetres en leur adressant le 
signal selectionne en tant que signal d'entree, puis adresser 
5 les parametres calcules par les seconds moyens de calcui de 

paramdtres aux moyens de reconnaissance en tant que 
parametres d'entr6e ; 

sinon activer les moyens de detection d'activite vocale du 
serveur en leur adressant le signal selectionne en tant que 

-JO signal d'entree, puis adresser les segments extraits par les 

moyens de detection d'activite vocale aux seconds moyens 
de calcul de parametres en tant que parametres d'entree, 
puis adresser les parametres calculus par les seconds 
moyens de calcul de parametres aux moyens de 

1 5 reconnaissance en tant que parametres d'entree : 

♦ lorsque le signal selectionne regu par les moyens de reception Indique 
des parametres de modelisation, adresser lesdits parametres indiques 
aux moyens de reconnaissance en tant que parametres d'entree. ^ 

Avantageusement, le terminal utilisateur comprend en outre des 
20 moyens de reconnaissance pour associer au moins une fomne memorls§e e 

des parametres d'entr6e. 

Dans ce dernier cas, les moyens de controle du terminal peuvent 

etre adaptes pour seiectionner un signal e emettre a destination du serveur en 

fonction du resultat fourni par les moyens de reconnaissance du temninal. Et le 
25 terminal utilisateur peut comporter en outre des moyens de stockage adaptes 

pour stocker un signal au niveau du terminal, pour pouvoir, au cas ou le 

resultat de la reconnaissance locale au terminal n'est pas satisfaisante, 

envoyer le signal pour reconnaissance par le serveur. 

Avantageusement, les moyens de controle du terminal peuvent 
30 etre adaptes pour seiectionner un signal a emettre a destination du serveur 

independamment du resultat fourni par des premiers moyens de 

reconnaissance. 
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II faut noter que les moyens de controle d'un terminal peuvent 
passer de Tun a Tautre des deux modes decrits dans les deux paragraphes ci- 
dessus, en fonction par exemple du contexte applicatif, ou de Tetat du reseau. 

De preference, les moyens de controle du serveur cooperent 
5 avec les moyens de controle du terminal. Le terminal peut ainsi eviter 
d'envoyer a destination du serveur par exemple un signal audio s'il y a deja 
une charge importante au niveau des moyens de calcul de parametres du 
serveur. Dans un mode possible de realisation, les moyens de controle du 
serveur sont configures pour coop§rer avec les moyens du terminal pour 
10 adapter le type de signaux envoyes par le terminal en fonction des capacites 
respectives du reseau, du serveur et du terminal. 

Les moyens de calcul et de reconnaissance du terminal peuvent 
etre normalises ou proprletaires. 

Dans un mode de realisation prefere, certains au moins parmi les 
15 moyens de reconnaissance et de calcul de parametres au niveau du terminal 
lui ont et6 fournis par telechargement, sous forme de code executable par le 
processeur du terminal, par exemple depuis le serveur. 

Selon un deuxieme aspect, invention propose un terminal 
utilisateur pour mettre en oeuvre un systeme de reconnaissance de parole 
20 distribuee selon I'invention. 

Selon un troisieme aspect, I'invention propose un serveur pour 
mettre en oeuvre un systeme de reconnaissance de parole distribuee selon 
rinvention. 

D'autres caracteristiques et avantages de rinvention apparaTtront 
25 encore a la lecture de la description qui va suivre. Celle-ci est purement 
illustrative et doit etre iue en regard des desslns annexes sur lesquels : 

la figure unique est un schema representant un systeme dans 
un mode de realisation de la presente invention. 
Le systeme represents sur la figure unique comporte un serveur 1 et 
30 un terminal utilisateur 2, qui communiquent entre eux par Tintermediaire d'un 
reseau (non represents) disposant de canaux pour la transmission de sfgnaux 
de voix et de canaux pour la transmission de signaux de donnees. 
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Le terminal 2 comporte un microphone 4, qui recueille la parole ^ 
reconnaitre d'un utilisateur sous fomie d'un signal audio. Le temninal 2 
comporte egalement un module de calcul de parametres de modelisation 6, qui 
realise de fagon connue en soi une analyse acoustique permettant d'extraire 
5 les parametres pertinents du signal audio, et eventuellement pouvant 
avantageusement r^aliser une fonction de debruitage. Le temiinal 2 comprend 
un controleur 8, qui s6lectionne un signal parmi lie signal audio et un signal 
indicatif des parametres calculus par le module de calcul de parametres 6. II 
comprend en outre une interface 10 pour remission sur le r§seau du signal 
10 selectionne. a destination du serveur, 

Le serveur 1 comporte une interface r6seau 12 pour recevoir les 
signaux qui lui sont adresses. un controleur 14 qui analyse le signal regu et le 
dirige ensuite s6lectivement vers un module de traitement pamii plusieurs 
modules 16,18,20. Le module 16 est un detecteur d'actlvite vocale, qui assure 
15 la detection des segments correspondant a de la parole et devant etre 
reconnus. Le module 18 assure le calcul de parametres de modelisation de 
fagon semblable au module de calcul 6 du temninal. Toutefois. le modele de 
calcul peut §tre different. Le module 20 execute un algorithme de 
reconnaissance de type connu, par exemple a base de modeles de lyiarkov 
20 caches avec un vocabulaire par exemple sup§rieur ^ 1 00 000 mots. Ce moteur 
de reconnaissance 20 compare les parametres en entree a des modeles de 
parole qui reprdsentent des mots ou des phrases, et determine la meilleure 
forme associee, compte tenu de modeles syntaxiques qui decrivent les 
enchaTnements de mots attendus, de modeles lexicaux qui pr6cisent les 
25 differentes prononciations des mots, et de modeles acoustiques repr§sentatlfs 
des sons prononces. Ces modeles sont par exemple multilocuteurs. capables 
de reconnaitre. avec une bonne fiabilite. de la parole, independamment du 
locuteur. 

Le contraieur 14 commande le module de VAD 16, le module de calcul 
30 de parametres 1 8 et le moteur de reconnaissance 20 de fagon § : 

a/ lorsque le signal regu par I'interface de reception 12 est de type 
audio et n'indique pas des segments de parole obtenus par detection d'actlvite 
vocale. activer le module VAD 16 en lui adressant le signal regu en tant que 
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signal d'entree, puis adresser les segments de parole extraits par le module 
VAD 16 au module de calcul de parametres 18 en tant que parametres 
d'entree, puis adresser les parametres calcules par ces moyens de calcul de 
parametres 18 au moteur de reconnaissance 20 en tant que parametres 
d'entree ; 

b/ lorsque le signal regu par {'interface de reception 12 est de type 
audio et indique des segments de parole aprds detection d'activite vocale, 
activer le module de calcul de parametres 18 en lui adressant le signal regu en 
tant que signal d'entree, puis adresser les parametres calcules par ce module 
de calcul de parametres 18 au moteur de reconnaissance 20 en tant que 
parametres d'entree ; 

c/ lorsque le signal regu par {'interface de reception 12 indique des 
parametres de modelisation, adresser lesdits parametres indiques au moteur 
de reconnaissance 20 en tant que parametres d'entree. 

Par exemple, dans le cas oCi I'utilisateur du terminal 1 utilise une 
application pennettant de demander des infonnations sur la bourse et enonce : 
« cours de cidture des trols demiers jours de la valeur Lambda », le signal 
audio correspondant est capture par le microphone 4. Dans le mode de 
realisation du systeme selon I'invention, ce signal est ensuite, par d6faut, tralte 
par le module de calcul de parametres 6, puis un signal indiquant les 
parametres de modelisation calcules est envoye vers le serveur 1 . 

Quand par exemple des problemes de disponibilite de canaux de 
donnees ou du module de calcul 6 surgissent, c'est le signal audio en sortie du 
microphone 4 que le controleur 8 selectionne alors pour le transmettre a 
destination du serveur 1 . 

Le controleur peut aussi etre adapte pour envoyer systematiquement 
un signal indiquant les parametres de modelisation. 

Le serveur receptlonne le signal avec I'interface de reception 12, puis 
realise, pour effectuer la reconnaissance de parole sur le signal regu, le 
traltement indique en a/ ou b/ si le signal envoye par le tennlnal 1 est de type 
audio ou le traltement indique en c/ si le signal envoye par le terminal 1 indique 
des parametres de modelisation. 
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Le serveur selon I'invention est egalement apte ^ effectuer de la 
reconnaissance de parole sur un signal transmis par un terminal ne disposant 
pas de.moyens de calcul de parametres de modellsation. ni de moyens de 
reconnaissance et disposant eventuellement de moyens de detection d'activite 
voc^le. 

Avantageusement, dans un mode de realisation de I'invention. le 
systSme peut comporter en outre un temnlnal utilisateur 22, qui comporte un 
microphone 24 similaire ^ celui du terminal 2. un module 26 de detection 
d'activite vocale. La fonction du module 26 est semblable a celle du module de 
detection d'activite vocale 16 du serveur 1. Toutefois le modele de detection 
peut etre different. Le terminal 22 comporte un module de calcul de parametres 
de modelisation 28, un moteur de reconnaissance 30 et un controleur 32. II 
comprend une interface 10 pour remission sur le r^seau, i destinatipn du 
serveur. du signal selectionne par le controleur 32. 
15 Le mofeur de reconnaissance 30 du terminal peut par exemple traiter 

un vocabulaire de moins de 10 mots. II peut fonctionner en .mode 
monolocuteur. et necessiter une phase d'apprentissage prealable a partir de la 

voix de I'utillsateur. v 
La reconnaissance de parole peut s'effectuer de diff6rentes faQor\f : 
20 - exclusivement au niveau du terminal, ou 

ou exclusivement au niveau du serveur, ou 
partiellement ou totalement au niveau du terminal et 
egalement, de manlere altematlve ou simultanee. 
partiellement ou totalement au niveau du serveur. 
25 Quand un choix doit etre effectue sur la fornie finalement retenue entre 

une forme associee foumie par le module de reconnaissance du serveur et une 
fornie associee foumie par ceux du terminal, il peut s'effectuer sur la base de 
diff6rents crit^res, qui peuvent varier d'un terminal a I'autre, mais aussi d'une 
application a I'autre ou d'un contexte donn6 a un autre. Ces criteres peuvent 
30 donner par exemple priorite a la reconnaissance effectuee au niveau du 
temiinal. ou a la forme associee presentant le plus fort taux de probabilite, ou 
encore a la fomne d6termin§e le plus rapidement. 
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La fa^on dont s'effectue cette reconnaissance peut etre figee au niveau 
du terminal dans un mode donne. Ou elle peut varier en fonction notamment de 
criteres lies a {'application concernee, a des problematiques de charge des 
differents moyens au niveau du terminal et du serveur, ou encore d des 
problematiques de disponlbllite de canaux de transmission voix ou donn^es. 
Les contrSleurs 32 et 14 situes respectivement au niveau du terminal et du 
serveur traduisent la fagon dont doit s'effectuer la reconnaissance. 

Le contrdleur 32 du temiinal est adapts pour selectionner un signal 
parmi le signal audio d'origine en sortie du microphone 24, un signal audio 
repr6sentatlf des segments de parole extraits par le module VAD 26 et un 
signal indlquant des parametres de modellsation 28. Suivant les cas, le 
traitement au niveau du temninal se poursuivra ou non au-dela de I'etape de 
traitement du terminal dellvrant le signal a emettre. 

Par exemple, considerons un mode de realisation dans lequel le 
module VAD 26 du terminal est congu par exemple pour detecter rapidement 
des mots de commandes et le module VAD 16 du serveur peut §tre plus lent, 
mais est congu pour detecter des phrases enlidres. Une application, dans 
laquelle le terminal 22 effectue une reconnaissance en local et de fagon 
simultanee fait effectuer une reconnaissance par le serveur a partir du signal 
audio transmis, pemiet notamment de cumuler les avantages de chaque 
module de detection vocale. 

Considerons S present une application dans laquelle la reconnaissance 
est effectuee exclusivement en local (temninal) ou exclusivement distante 
(serveur centralise), sur la base de mots-cles permettant la commutation : 

La reconnaissance en cours est d'abord locale : I'utilisateur enonce : 
« appelle Antoine », Antoine figurant dans le repertoire local. Puis 11 enonce 
« messagerie », mot-cle qui est reconnu en local et qui fait basculer en 
reconnaissance par le serveur. La reconnaissance est malntenant distante. II 
t§nonce « rechercher le message de Josiane ». Lorsque ledit message a ete 
ecoute. il enonce « tennine », mot-cle qui fait ^ nouveau basculer I'application 
en reconnaissance locale. 



13 



Le signal transmis au serveur pour y effectuer la reconnaissance etait 
de type signal audio. Dans un autre mode de realisation, il pourrait indiquer les 
parametres de modelisation calcules dans !e terminal, 

Considerons maintenant une application dans laquelle la 
5 reconnaissance au niveau du terminal et celle au niveau du serveur sont 
altemees. La reconnaissance est d'abord effectuee au niveau du terminal 22 et 
le signal apres detection vocale est stocke. Si la reponse est consistante, c'est- 
a-dire s'il n'y a pas de rejet du module de reconnaissance 30 et si le signal 
reconnu est valide du point de vue applicatif. Tapplicatif local au terminal passe 

10 a la phase applicative suivante. Dans le cas contraire, le signal stock6 est 
envoyee au serveur pour effectuer la reconnaissance sur un signal indiquant 
des segments de parole apr§s detection d'activit6 vocale sur le signal, audio 
(dans un autre mode de realisation, ce sont les parametres de modelisation qui 
pourraient etre stockes) 

15 Ainsi Tutilisateur enpnce « appelle Antoine » ; Tensembie du traitement 

au niveau du terminal 22 s'effectue avec stockage du signal, Le signal est 
reconnu avec succds en local, ii enonce alors « rechercher le message de 
Josiane » ; la reconnaissance au niveau du terminal 6choue ; le signal stocke 
est alors transmis au serveur. Le signal est bien . reconnu et le message 

20 demand§ est joue. 

Dans une autre application, la reconnaissance se fait simultan6ment au 
niveau du terminal et egalement, et ce independamment du resultat de la 
reconnaissance locale, au niveau du serveur. L'utilisateur enonce « appelle 
Antoine ». La reconnaissance se deroule aux deux niveaux. Comme le 

25 traitement local interprete la commande, le resultat distant n'est pas considere. 
Puis Tutilisateur enonce « rechercher le message de Josiane » qui genere un 
echec en local, et qui est bien reconnu au niveau du serveur. 

Dans un mode de realisation, le moteur de reconnaissance 30 du 
terminal 22 est un programme executable telecharge depuis le serveur par des 

30 moyens classiques de transfer! de donnees. ^ 

Avantageusement, pour une application donnee du terminal 22, des 
modeles de reconnaissance du terminal peuvent etre telecharg6s ou mis a jour 
au cours d'une session applicative connectee au reseau. 
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D'autres ressources logicielles utiles a la reconnaissance de parole 
peuvent aussi etre telechargees depuis ie serveur 1 , connme le nnodule 6,28 de 
calcul de parametres de modelisation ou le detecteur d'activite vocale 26. 

D'autres exemples pourraient etre decrits, mettant en oeuvre par 
5 exemple des applications liees aux voitures, a relectromenager, multimedia. 

Comme presente dans les exemples de realisation ci-dessus decrits, 
un systeme selon Tinvention pemnet d'utiliser de fa9on optimisee les differentes 
ressources n6cessaires au traltement de la reconnaissance de ia parole et 
pr6sentes au niveau du terminal et du serveur. 
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REVENDICATIONS 



1. Systems de reconnaissance de parole distribuee, comportant au 
moins un terminal utilisateur et au moins uri serveur aptes a communiquer 
entre eux par llntermediaire d'un reseau de telecommunications, dans lequel le 
terminal utilisateur comprend : 

des moyens d'obtention d'un signal audio a reconnaTtre ; 

des premiers moyens de calcul de parametres de modelisation du 

signal audio; et 

des premiers moyens de controle pour selectionner au moins un 
signal a emettre a destination du serveur parmi ie signal audio a 
reconnaTtre et un signal indiquant les parametres de modelisation 
calcules, 

et dans lequel le serveur comprend : 

des moyens de reception du signal s6lectlonn§ en provenance du 
terminal utilisateur ; 

des seconds moyens de calcul de parametres de parametres de 
modelisation d'un signal d'entree ; 

des moyens de reconnaissance pour associer au moins une forme 
memorisee a des parametres d'entree ; et 

des seconds moyens de controle pour commander les seconds 
moyens de calcul et les moyens de reconnaissance de fagon a 
lorsque le signal selectionne regu par les moyens de reception est 
de type audio, activer les seconds moyens de calcul de parametres en ieur 
adressant le signal selectionne en tant que signal d'entree, et adresser les 
parametres calcules par les seconds moyens de calcul aux moyens de 
reconnaissance en tant que parametres d'entree, et 

lorsque le signal selectionne regu par les moyens de reception 
indique des parametres de modelisation, adresser lesdits parametres indiques 
aux moyens de reconnaissance en tant que parametres d'entr6e. 



16 



2. Systeme selon la revendication 1, dans lequel les moyens 
d'obtention du signal audio a reconnaitre comprennent des moyens de 
detection d'activite vocale pour produire le signal a reconnaTtre sous fomie 
d'extraits d'un signal audio d'origine, en-deliors de segment de parole de 

5 periodes d'inactivite vocale. 

3. Systeme selon la revendication 2, dans lequel les premiers moyens 
de controle sont adapt6s pour selectionner le signal d 6mettre a destination du 
serveur parmi au moins le signal audio d'orlglne, le signal audio a reconnaitre 

10 sous forme des segments extraits par les moyens de detection d'activite 
vocale et le signal indiquant des parametres de mod6lisation calcules par les 
premiers moyens de calcul de parametres. 

4. Systeme selon Tune queiconque des revendications precedentes, 
15 dans lequel : 

- le serveur comporte en outre des moyens de detection d'activite 
vocale pour exlraire d'un signal de type audio en-deFiors de periodes 
d'inactivite vocale des segments de parole ; et 

- les seconds moyens de controle sont adaptes pour commander les 
20 seconds moyens de calcul et les moyens de reconnaissance lorsque 

le signal selectionne regu par les moyens de reception est de type 
audio de fagon d 

si le signal de type audio est representatif de segments de parole apres 
detection d'activite vocale, activer les seconds moyens de calcul de 

25 parametres en leur adressant le signal selectionne en tant que signal d'entree, 
puis adresser les parametres calcules par les seconds moyens de calcul de 
parametres aux moyens de reconnaissance en tant que parametres d'entree ; 

sinon activer les moyens de detection d'activite vocale du serveur en 
leur adressant le signal vegu en tant que signal d'entree, puis adresser les 

30 segments extraits par les seconds moyens de detection d'activite vocale aux 
seconds moyens de calcul de parametres en tant que signal d'eniree, puis 
adresser les parametres calculus par les seconds moyens de calcul de 
parametres aux moyens de reconnaissance en tant que parametres d'entr6e. 
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5. Systeme selon les revendications 1 a 4, dans lequel le terminal 
utilisateur comprend en outre des moyens de reconnaissance pour associer au 
moins une forme memorisee aux parametres de modelisation calcules par les 
premiers moyens de calcuL 

5 

6. Systeme selon ia revendication 5, dans lequel les premiers moyens 
de controle sont adaptes pour selectionner le signal a emettre a destination du 
serveur en fonction du r6sultat foumi par les moyens de reconnaissance du 
terminal. 

10 

7. Systeme selon Tune des revendications 5 a 6, dans lequel le 
terminal utilisateur comporte en outre des moyens de stockage adaptes pour 
stocker le signal audio a reconnaTtre ou les parametres de modelisation 
calcules par les premiers moyens de calcul de parametres. 

15 

8. Systeme selon la revendication 5, dans lequel les premiers moyens 
de controle sont adaptes pour selectionner un signal a emettre a destination du 
serveur independamment du resultat fourni par des moyens de reconnaissance 
du terminal. 

20 

9. Terminal utilisateur pour mettre en oeuvre un systdme de 
reconnaissance de parole distribuee selon Tune des revendications 1 a 8, 
comportant : 

des moyens d'obtention d'un signal audio a reconnaTtre ; 
25 - des moyens de calcul de parametres de modelisation du signal 

audio ; et 

des premiers moyens de controle pour selectionner au moins un 
signal a emettre a destination d'un serveur parmi le signal audio a 
reconnaTtre et un signal indlquant des parametres de 
30 modelisation calcules. 
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10. Terminal utilisateur selon la revendication 9, dans lequel au moins 
une partie des moyens de calcul de parannetres est telechargee depuis le 
sen/eur. 

11. Terminal selon la revendication 9 ou 10 comprenant en outre des 
moyens de reconnaissance pour assocler au moins une forme m§morisee aux 
parametres de modelisatfon. 

12. Terminal utilisateur selon la revendication 11, dans lequel au moins 
une partie des moyens de reconnaissance est telechargee depuis le serveur. 

13. Serveur pour mettre en oeuvre un systeme de reconnaissance de 
parole distribuee selon Tune des revendications 1 a 8 comprenant : 

des moyens de reception, en provenance d'un terminal utilisateur, 
d'un signal selectionne audit terminal ; 

des moyens de calcul de parametres de modelisation d'un signal 
d'entree ; 

des moyens de reconnaissance pour associer au moins une 
forme memorisee a des parametres d'entree ; et 
des moyens de contrSIe pour commander ies seconds moyens de 
calcul et Ies moyens de reconnaissance de fagon a 
lorsque le signal selectionne regu par Ies moyens de reception est 
de type audio, activer Ies moyens de calcul de parametres en ieur adressant le 
signal selectionne en tant que signal d'entree, et adresser Ies parametres 
calcules par Ies moyens de calcul aux moyens de reconnaissance en tant que 
parametres d'entree, et 

lorsque le signal selectionne regu par Ies moyens de reception 
indique des parametres de modelisation, adresser lesdits parametres indiques 
aux moyens de reconnaissance en tant que parametres d'enlree. 

14. Sei-veur selon la revendication 13 comprenant des moyens pour 
telecharger des ressources logiclelles de reconnaissance vocale par 
rintermedlaire du reseau de telecommunications a destination d'un terminal au 
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molns une partie des premiers moyens de calcul de parametres ou des 
moyens de reconnaissance du terminal. 

15. Serveur selon la revendication 14 comprenant des moyens pour 
5 telecharger des ressources logicielles de reconnaissance vocale par 

i'intermediaire du reseau de telecommunications a destination d'un terminal. 

16. Serveur selon la revendication 15, dans lequel lesdites ressources 
comprennent au moins un module parmi : un module de VAD, un module de 

10 calcul de parametres de modelisation d'un signal audio et un module de 
reconnaissance pour associer au moins une forme memorisee d des 
parametres de modelisation. 
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